El objetivo de este trabajo sera el de hacer un analisis exploratorio de los datos (EDA).
Para reescalar las variables utilizaremos esta formula.
\[\begin{equation} x_{estan} = \dfrac{x-min\left(x\right)}{max\left(x\right)-min\left(x\right)} \end{equation}\]
Y despues de esto categorizaremos las variables en cuantro categorias:
# categorizar<- function(x){
#
# x<- rescale(x)
#
# x<- ifelse(x<=mean(x)/2,"bajo",
# ifelse(x<=mean(x),"medio_bajo",
# ifelse(x<=1.5*mean(x),"medio_alto",
# ifelse(x<=max(x),"alto", NA))))
# return(x)
# }
categorizar<- function(x){
x<- rescale(x)
x<- ifelse(x<=quantile(x)[2][[1]],"bajo",
ifelse(x<=quantile(x)[3][[1]],"medio_bajo",
ifelse(x<=quantile(x)[4][[1]],"medio_alto",
ifelse(x<=max(x),"alto", NA))))
x<- factor(x, levels= c("bajo", "medio_bajo", "medio_alto", "alto"))
return(x)
}
Cargamos los datos.
Lo primero que haremos sera ver la cantidad de victorias que tenemos globalmente.
## `summarise()` has grouped output by 'FTR'. You can override using the `.groups` argument.
Podemos observar que tenemos una mayoria de victorias locales y que cada año mas o menos se mantiene esta proporción.
Puntos local - Puntos visitante
## [1] "GANAR"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -56.000 -3.000 2.000 3.871 10.000 60.000
## [1] "Numero registros: 2861"
## [1] "EMPATAR"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -59.000 -7.000 -1.000 -1.549 4.000 59.000
## [1] "Numero registros: 1493"
## [1] "PERDER"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -64.000 -13.000 -4.000 -6.136 2.000 49.000
## [1] "Numero registros: 1726"
Cuantos Partidos sin ganar desde ultima victoria en la actual liga local/visitante. En absoluto y separado por local/visitante.
Numero de partidos ganados consecutivos local/visitante. En absoluto y separado por local/visitante
Numero de partidos perdidos consecutivos local/visitante. En absoluto y separado por local/visitante.
Puntuación de los ultimos 5 partidos (1: ganar, 0: empatar: -1:perder) en absoluto, local o visitante. Para este caso, para las primeras cuatro jornadas iremos cogiendo de los partidos que se hayan transcurrido en la anterior temporada.
Goles encajados en los 3 ultimos partidos en absoluto, local o visitante. Para los casos en los que el equipo haya recibido goles en segunda división los goles valdran el doble.
Goles realizados en los 3 ultimos partidos en absoluto, local o visitante. A los goles realizados en segunda división se les pone una penalización por el echo de ser de segunda división.
Goles encajados en los 3 ultimos partidos al descanso en absoluto, local o visitante. Para los casos en los que el equipo haya recibido goles en segunda división los goles valdran el doble.
Goles realizados en los 3 ultimos partidos al descanso en absoluto, local o visitante. A los goles realizados en segunda división se les pone una penalización por el echo de ser de segunda división.
Mejor racha de partidos ganados entre la mitad anterior de campeonato local/visitante y en absoluto. Se asume la posible racha que venga de la otra primera mitad con si fuese de la mitad en la que estamos. Penalizamos el estar en segunda, bajando la mejor racha a la mitad
Peor racha de partidos ganados entre la mitad anterior de campeonato local/visitante y en absoluto. Se asume la posible racha que venga de la otra primera mitad con si fuese de la mitad en la que estamos. Penalizamos el estar en segunda, subimos la peor racha al doble.
Observaremos distintas estadisticas del partido anterior
Observaremos distintas estadisticas del partido anterior como visitante